在对OP3进行训练时,研究团队首先对其训练单一的行为技能,然后使其通过自我博弈方式端到端的组合这些单一技能,通过这种方式产生的组合行为展现出了惊人的运动潜能。例如OP3可以流畅地完成行走、转身、运球、射门等复杂足球行为,如下图所示,有一说一,这射门动作还是很帅的。除了上述专业足球动作,研究团队还着重考虑了OP3对外界环境的适应能力,例如快速跌倒恢复动作,如下图所示,如果将运动中的OP3直接推到,它能够快速平稳的重新站立,展现出了较强的环境适应能力。上一次看见这种操作还是在波士顿动力(Boston Dynamics)的类人机器人Atlas身上,相比起来,OP3还是更加袖珍一点,但是却拥有非常专业的足球运动能力。研究团队提到,OP3的所有行为都是从一系列的外界奖励累积产生的,这也正是深度强化学习算法的核心所在。研究团队首先在一个模拟环境中训练代理模型,然后以zero-shot的形式将学习到的技能迁移到OP3机器人身上。由于模拟环境与机器人所处的真实环境具有不可忽视的域差异,因而在模拟训练期间,作者设计了一种结合了高频控制、动力学随机化和随机扰动加噪的混合优化方法,这一方法使得代理模型与OP3之间的高质量运动能力迁移成为可能。一、介绍 之所以选择足球运动作为研究目标,DeepMind认为,像足球这样的运动体现了人类运动智能的诸多特征,足球运动要求运动员完成各种高度敏捷和动态动作,包括跑动、转身、侧踏、踢球、传球、跌倒恢复、物体互动等等,要完成一个出色的足球进球,需要运动员将以上动作进行多种形式的组合。此外运动员还需要对球、队友和对手的状态做出预测,并根据比赛环境调整自身的动作,选择足球运动作为研究目标已经成为机器人和人工智能社区中一项广泛认可的任务。在本文中,DeepMind研究团队设计了一个具有20个可控关节的低成本双足人形机器人OP3作为实施对象,并且选取了足球问题中的一个子集,即1对1足球游戏开展实验。由于低成本机器人移动缓慢而笨拙,因而作者团队为其量身定制了一套深度强化学习算法,使其能够以自然流畅的方式组合自身行为以适应动态场景。在实验中,机器人智能体逐渐掌握了预测足球运动的能力,并且可以根据足球轨迹实现拦球和防守等高级操作。 研究团队首先在一个定制的足球仿真环境中训练了智能体,然后将策略转移到对应的真实环境中,如上图所示,该环境由一个长5米、宽4米的足球场构成,其中设置了两个球门,每个球门的开口宽度为0.8米。在仿真环境和真实环境中,足球场的周围都设置有坡道,确保球保持在边界内。真实的足球场上铺有橡胶地板砖,以增加机器人与地面的摩擦力。二、本文方法 本文算法的训练目标是训练一个智能体,并将完成足球游戏所需的各项运功技能(包括行走、踢球、从地面起身、进球和防守)组合成可持续的行为策略,随后将其转移到真实机器人OP3上。作者提到,如果仅仅对智能体的目标函数进行简单的稀疏奖励训练,很难实现上述复杂的行为组合效果,因而本文通过将整体训练过程分为以下两个阶段来分步实现,如下图所示。在第一阶段,研究团队首先训练了一个教师模型,教师模型主要使用两个特定技能进行训练,即从地面起身(getting up from the ground)和进攻对手得分(scoring goals)。需要注意的是,在训练进攻对手得分任务时,智能体必须处于站立状态,如果没有对该条件进行限制,智能体会陷入一个局部最小值陷阱,即在地面上滚动来将球送入球门,而不是通过行走运球和射门,这是强化学习训练中常见的问题。在第二阶段,研究团队使用第一阶段训练得到的教师模型来指导智能体学习如何有效地对抗越来越强的对手。这里作者采用了自我博弈的形式,即对手是从智能体的先前训练版本中随机采样得到的。这是一种自动课程学习的方式,对手的强度随着智能体的改进而增加。此外,为了提高后续策略迁移的泛化能力,作者在智能体训练过程中加入了域随机化、随机扰动和传感器噪声等增强手段。2.1 第一阶段:教师模型训练对于教师模型的进攻得分任务,作者设置了多种训练情景,当智能体发生摔倒、出界、进入球门禁区或被对手进球等情况时,训练会直接终止,停止奖励反馈。而当智能体进球或者相对于对手带球进攻时,为智能体累积奖励分数,最终的总奖励是各奖励成分的加权和。此外,作者发现,对教师模型训练从地面起身技能(getting up from the ground)可以帮助智能体来获得更加完善的足球技能。从地面起身动作可以分解为一系列关键姿态,如下图所示,作者分别预先定义了从前方或后方起身的三个关键姿势。如果直接在关键姿势之间进行插值就可以使机器人以足够稳定的方式起身,但是动作较为笨拙,相反,作者以关键姿势作为引导条件来训练智能体,并且不对最终的动作进行限制,这有助于提高智能体的灵活。为此,作者引入了一系列额外的任务变量作为目标姿势,包括目标关节角度和目标躯干方向,机器人的初始化状态设置为倒地状态,并以1.5秒的频率采样一个新的目标姿势。智能体的目标函数设置为:其中 是关节位置的比例误差。 是所需重力方向与实际重力方向之间的角度。和分别是时间步数的实际关节位置和重力方向。2.2 第二阶段:蒸馏和自我博弈 在第二阶段,智能体将与越来越强的对手进行竞争,同时根据教师模型的引导进行正则化。这一过程可以产生多个能够进行各种足球技能的单一智能体,例如行走、踢球、从地面起身、进球和防守。当智能体或对手得分时训练会被终止,当智能体处于倒地状态、越界或球门禁区时,它在这些时间段都会收到一个固定的惩罚,所有的积极奖励成分都被忽略。当从地面起身和进攻对手得分教师模型均训练完成后,智能体必须学会在这两种技能之间平稳过渡。由于教师策略在相同的环境中以相同的实验设置进行训练,因此可以使用策略蒸馏的方式,通过添加一个正则化项来鼓励智能体策略的输出与教师策略的输出相似就可以完成训练。作者将训练目标分为两个部分:一个将足球训练目标和KL正则化结合应用于进攻得分教师模型上,另一个将其与KL正则化结合应用于从地面起身教师模型上:在智能体处于站立状态时,训练目标起作用,而在其他状态时,训练目标起作用,因此,综合训练目标可以表示为:其中是智能体处于所有站立状态的集合。在训练的第二阶段,作者会对前期训练的智能体模型进行保存构成一个策略池,并且从该策略池中均匀随机选取一些模型作为对手来构成自我博弈,作者提到,如果从策略池的前四分之一选择时,自我博弈后产生的智能体效果更加稳定,因为这样可以确保对手的性能随着时间的推移而改善,而不会因为太快逼近对手模型而得到局部最优解。三、实验效果 在实验部分,作者主要对OP3代理程序的1对1足球效果进行了评估。作者提到,在OP3的第一个训练阶段中,从地面起身的教师模型和进攻得分教师模型训练分别花费了14小时和158小时(相当于6.5天),而在第二个阶段中,蒸馏和自我博弈训练耗时68个小时。评估实验在真实环境中进行,作为对比方法,作者将1v1足球比赛中常见的一些足球行为(例如行走、起身和运球)使用一些手动编程的baseline控制脚本作为代替。此外为了研究OP3模型的灵活性,作者对其步态模式进行了适应性分析。3.1 1v1足球评估 在1v1足球运动评估中,作者重点选取了一些复杂的交互行为,如下图所示,包括敏捷的移动技能,如从地面上起身、快速跌倒恢复、奔跑和转身。与物体进行交互,如控制运球和射门,防守等。甚至还有一些足球战术行为,例如始终保持自身的位置处于进攻对手与自己的球门之间来进行防守,并尝试用身体来防守对方的进攻球。上图中展示了一些1v1比赛实验中的片段,在实际比赛场景中中,OP3可以以流畅的方式在这些技能之间灵活切换。3.2 与baseline控制脚本的对比 对于一些关键的运动技能(起身、踢球和行走),完全也可以使用人为定义的控制脚本来实现,但是这种方式会使机器人看起来更加笨拙。为了衡量本文使用深度强化学习训练的OP3与这种控制脚本相比的优势,作者对二者进行了实验对比,对比结果如下表所示。可以看到,使用强化学习训练的运功技能表现明显优于baseline控制脚本,其中机器人的行走速度可以达到0.69m/s,相比baseline提升了156%,机器人从地面起身时间减少了63%。此外,两种方法运球的球速都保持在2m/s左右。但是当机器人通过额外加速靠近球时,强化学习策略可以将运球速度进一步提高到2.6m/s,这比baseline脚本快了将近24%。这表明,通过强化学习训练,代理模型能够学习高度优化的运动技巧,从而将机器人硬件的能力发挥到极限。3.3 步态模式适应性分析为了展示了OP3代理模型的运功灵活性,作者对其步态模式进行了分析。在这个实验中,OP3代理模型被初始化在场边附近,与场边平行,并且球放置在球场中心位置,然后观察OP3如何操作。一般而言,对于这种情况,代理模型为了进球得分,应该先转身面对球,然后行走到球的后方并再次转身踢球,形成一个大致对称的“S”形路线。如下图所示,代理模型仅用了10步就成功实现了这一目标,并且在这一过程中,转身、行走和踢球等动作无缝结合,表现出了较强的适应能力。四、结论本文将深度强化学习策略应用于低成本的双足机器人上,并提出了一个足球代理模型OP3,OP3可以流畅的完成1v1足球比赛。DeepMind研究团队将OP3的训练分为两个阶段,并首先在仿真环境中进行策略学习,随后将其以zero-shot的形式迁移到真实机器人上。研究团队在研究过程中发现,在训练时加入例如域随机化、传感器噪声等扰动手段,可以达到意想不到的迁移效果。通过两阶段式的强化学习训练,以及蒸馏学习和自我博弈,OP3可以将所学单个运动技能灵活无缝的结合在一起,明显超过了人为设置的控制脚本。DeepMind表示,如果将类似的方法应用于更强大的机器人上,应该可以解决一些更加实际的现实世界任务。